但是在某一个指定任务上,未标注的数据通常是难以获取。该问题在某些自然语言处理任务上尤为突出,比如,文本相似度判断(text similarity),自然语言推断任务(natural language inference)。因为此类任务需要对一组文本之间的关系进行判别,所以它们的数据格式相较于单文本分类问题更为复杂。因此,很难采用传统信息检索的方式从互联网上获得此类任务的未标注数据。
此前的一些工作研究发现,通过微调 GPT2,即可生成一些任务相关的带标注合成文本(labelled synthetic text)。这些合成的标注数据可以提升常识推理 (Yang et al. 2020)和小样本文本分类任务 (Kumar et al. 2020)的性能。Ravuri et al. (2019)发现,即使带标注合成图片的质量在自动化评价指标上已经很接近真实的图片,但是和没用使用任何合成图片的图片分类模型比较,使用带标注合成图片的模型的准确度反而降低了。
同时,Kumar et al.(2020)也发现,带标注合成文本的语义信息和标注存在不一致的现象。除此以外,不少同期工作(Yang et al. 2020,Vu et al. 2021)也发现,合成数据可以大大提升各类自然语言处理任务的性能。但是这些方法都涉及到较为复杂的数据工程,比如,数据过滤,标注数据重标注等等。
鉴于以上问题,我们提出一套更简洁和通用的框架:generate, annotate and learn(GAL)。我们的实验结果显示,GAL 可以显著提升知识蒸馏,自训练和小样本学习在文本任务上的性能,并且在 GLUE benchmark 的知识蒸馏赛道上可以打败最先进的基线方法。
鉴于其媲美传统监督学习的效果,基于提示的小样本学习(prompt-based few-shot learning)收获了大量的关注 (Brown et al. 2020)。因此,我们也把目光转向如何使用合成文本来提升基于提示的小样本学习的性能。
如图2所示,对于某一个指定的下游任务,我们首先将 K 个标记的文本数据放在一起,从而组成一个提示语。然后将该提示语作为输入提供给大语言模型,并让其生成一条合成文本及其对应的标签。我们重复此操作 N 次,即可得到 N 条标记的合成文本。最后,我们将 K 个原始的标记文本数据和 N 个合成的标记文本数据组成新的提示语,并将此提示语用于小样本学习。
▲ 图2. GAL在基于提示的小样本学习下的概览
实验结果
3.1 知识蒸馏
对于知识蒸馏,我们使用 GLUE benchmark 来验证 GAL 的性能。我们使用 RoBERTa-large 和 DistilRoBERTa 分别作为老师模型和学生模型。如表 1 所示,相较于只使用原有训练数据的知识蒸馏方法,包括 BERT-Theseus(Xu et al., 2020),BERT-PKD(Sun et al., 2019),tinyBERT(Jiao et al., 2019))和 DistilRoBERTa + KD(standard KD),GAL 在所有的任务上,都存在显著的性能提升。
[1] Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu. 2019. Tinybert: Distilling bert for natural language understanding[2] Suman Ravuri and Oriol Vinyals. 2019. Classification accuracy score for conditional generative models. Advances in Neural Information Processing Systems[3] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. 2019. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter[4] Siqi Sun, Yu Cheng, Zhe Gan, and Jingjing Liu. 2019. Patient knowledge distillation for bert model compression. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing[5] Varun Kumar, Ashutosh Choudhary, and Eunah Cho. 2020. Data augmentation using pretrained transformer models[6] Yiben Yang, Chaitanya Malaviya, Jared Fernandez, Swabha Swayamdipta, Ronan Le Bras, JiPing Wang, Chandra Bhagavatula, Yejin Choi, and Doug Downey. 2020. G-daug: Generative data augmentation for commonsense reasoning[7] Canwen Xu, Wangchunshu Zhou, Tao Ge, Furu Wei, and Ming Zhou. 2020. Bert-of-theseus:
Compressing bert by progressive module replacing. Proceedings of the 2020 Conference
on Empirical Methods in Natural Language Processing[8] Ahmad Rashid, Vasileios Lioutas, and Mehdi Rezagholizadeh. 2021. Mate-kd: Masked adversarial text, a companion to knowledge distillation[9] Tu Vu, Minh-Thang Luong, Quoc Le, Grady Simon, and Mohit Iyyer. 2021. Strata: Selftraining with task augmentation for better fewshot learning. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing,